\section{不变子空间}

\begin{frame}{本节概要}
  \begin{enumerate}
    \item 若一个子空间在一线性变换下的像还包含在该子空间，此子空间就称为该线性变换的一个不变子空间。
      不变子空间的意义在于：方阵相似于准对角形与空间分解为不变子空间的直和在逻辑上是等价的；
      所以我们可以通过分解空间为不变子空间的直和来实现方阵相似于一个准对角形矩阵。
    \item  要把矩阵相似到尽可能简单的矩阵，我们期望相似到的准对角形矩阵的对角线上的块足够小、足够简单。
      从空间的角度看，我们要把空间分得足够细、要取特别的基。
    \item 
      我们将应用哈密顿-凯莱定理将空间按特征值分解成不变子空间的直和，
      如果特征多项式能分解为一次因子的乘积 (例如在复数域上)。
      实际上，我们将把空间分解为所谓的根子空间 (或者说，广义特征子空间) 的直和。
      我们知道，特征子空间的(直)和不见得是整个空间，除非所给方阵可以对角化。
      空间分解为根子空间的直和告诉了我们一般地能如何按照特征值分解空间。
    \item 若$\lambda_0$为线性变换$\sA$的特征值，属于$\lambda_0$的特征子空间
      为线性变换$\sA-\lambda_0 \sE$的核空间 $\ker (\sA-\lambda_0 \sE)$.
      设$\sA$的特征多项式为$\prod_{i=1}^s (\lambda-\lambda_i)^{r_i}$.
      那么 属于$\lambda_i$的根子空间
      为线性变换$(\sA-\lambda_i \sE)^{r_i}$的核空间 $\ker (\sA-\lambda_i \sE)^{r_i}$.
    \item 
      按照定义，属于特征值$\lambda_0$的特征向量是
      被$\sA-\lambda_0 \sE$作用变成零向量的那些(非零)向量；
      而属于特征值$\lambda_0$的广义特征向量是被$\sA-\lambda_i \sE$的某个正整数次幂作用
      变成零向量的那些 (非零) 向量。这样的幂的最小次数称为该广义特征向量的指数 (exponent).
      实际上，属于特征值$\lambda_0$的任一广义特征向量的指数总不超过 $\lambda_0$的 (代数) 重数，即 
      特征多项式的标准分解中$\lambda-\lambda_0$的次数 
      (另外，在第九节定理~\ref{139}~中我们将看到
  指数总不超过$\lambda_0$作为最小多项式的根的重数)。
  \end{enumerate}
\end{frame}

\begin{frame}{不变子空间}

这一节我们再来介绍一个关于线性变换的重要概念---不变子空间。 
同时利用不变子空间的概念，来说明线性变换的矩阵的化简与线性变换的内在联系。
这样，对上面的结果可以有进一步的了解。

\begin{definition}
  设 $\mathscr{A}$ 是数域 $P$ 上线性空间 $V$ 的线性变换， $W$ 是 $V$ 的子空间。 如果 $W$ 中的向量在 $\mathscr{A}$ 下的像仍在 $W$ 中，换句话说，对于 $W$ 中任一向量 $\xi$, 有 $\mathscr{A} \xi \in W$, 我们就称 $W$ 是 $\mathscr{A}$ 的\emph{不变子空间} (invariant subspace)，简称 \emph{$\mathscr{A}$-子空间} ($\sA$-subspace)。
\end{definition}

\begin{observation*}
如果线性空间 $V$ 的子空间 $W$ 是由向量组 $ \alpha_{1},  \alpha_{2}, \cdots,  \alpha_{s}$ 生成的， 即 $W=$ $L\left( \alpha_{1},  \alpha_{2}, \cdots,  \alpha_{s}\right)$, 则 $W$ 是 $\mathscr{A}$-子空间当且仅当 $\mathscr{A}  \alpha_{1}, \mathscr{A}  \alpha_{2}, \cdots, \mathscr{A}  \alpha_{s}$ 全属于 $W$. 
\end{observation*}
\begin{proof}
必要性是显然的。 现在来证充分性。 如果 $\mathscr{A}  \alpha_{1}, \mathscr{A}  \alpha_{2}, \cdots, \mathscr{A}  \alpha_{s}$ 全属于 $W$, 由于 $W$ 中每个向量 $\xi$ 都可以经 $ \alpha_{1},  \alpha_{2}, \cdots,  \alpha_{s}$ 线性表出，即有
\[
\xi=k_{1}  \alpha_{1}+k_{2}  \alpha_{2}+\cdots+k_{s}  \alpha_{s} .
\]
所以
\[
\mathscr{A}  \xi=k_{1} \mathscr{A}  \alpha_{1}+k_{2} \mathscr{A}  \alpha_{2}+\cdots+k_{s} \mathscr{A}  \alpha_{s} \in W .
\]
\end{proof}
\end{frame}

\begin{frame}

\begin{example}
整个空间 $V$ 和零子空间 $\{0\}$,对于每个线性变换 $\mathscr{A}$ 来说都是 $\mathscr{A}$-子空间。
\end{example}

\begin{example}
$\mathscr{A}$ 的值域与核都是 $\mathscr{A}$-子空间。
按定义， $\mathscr{A}$ 的值域 $\mathscr{A} V$ 是 $V$ 中的向量在 $\mathscr{A}$ 下的像的集合，它当然也包含 $\mathscr{A} V$ 中向量的像，所以 $\mathscr{A} V$ 是 $\mathscr{A}$ 的不变子空间。
$\mathscr{A}$ 的核是被 $\mathscr{A}$ 变成零的向量的集合，核中向量的像是零，自然在核中，因此核是不变子空间。
\end{example}

\begin{example}
  \label{116}
若线性变换 $\mathscr{A}$ 与 $\mathscr{B}$ 是可交换的，则 $\mathscr{B}$ 的核与值域都是 $\mathscr{A}$-子空间。
在 $\mathscr{B}$ 的核 $V_{0}$ 中任取一向量 $ \xi$, 则
\[
\mathscr{B}(\mathscr{A}  \xi)=(\mathscr{B} \mathscr{A})  \xi=(\mathscr{A} \mathscr{B})  \xi=\mathscr{A}(\mathscr{B}  \xi)=\mathscr{A} \symbf{0}=\symbf{0} .
\]
所以 $\mathscr{A} \xi$ 在 $\mathscr{B}$ 下的像是零， 即 $\mathscr{A} \xi \in V_{0}$. 这就证明了 $V_{0}$ 是 $\mathscr{A}$-子空间。 在 $\mathscr{B}$ 的值域 $\mathscr{B} V$ 中任取一向量 $\mathscr{B}  \eta$, 则
\[
\mathscr{A}(\mathscr{B}  \eta)=\mathscr{B}(\mathscr{A}  \eta) \in \mathscr{B} V .
\]
因此 $\mathscr{B} V$ 也是 $\mathscr{A}$-子空间。

因为 $\mathscr{A}$ 的多项式 $f(\mathscr{A})$ 与 $\mathscr{A}$ 可交换，所以 $f(\mathscr{A})$ 的值域与核都是 $\mathscr{A}$-子空间。 这种 $\mathscr{A}$-子空间是经常碰到的。
\end{example}
\end{frame}

\begin{frame}
\begin{example}
任何一个子空间都是数乘变换的不变子空间。
这是因为，按定义子空间对于数量乘法是封闭的。
\end{example}

\begin{example}
一维不变子空间恰为特征向量生成的子空间。 
设 $W$ 是一维 $\mathscr{A}$-子空间， $ \xi$ 是 $W$中任何一个非零向量，它构成 $W$ 的基。 按 $\mathscr{A}$-子空间的定义， $\mathscr{A} \xi \in W$,它必定是 $ \xi$ 的一个倍数， 即
\[
\mathscr{A} \xi=\lambda_{0} \xi .
\]
这说明 $\xi$ 是 $\mathscr{A}$ 的特征向量，而 $W$ 即是由 $\xi$ 生成的一维 $\mathscr{A}$-子空间。
反过来，设 $\xi$ 是 $\mathscr{A}$ 属于特征值 $\lambda_{0}$ 的一个特征向量， 则 $\xi$ 以及它的任一倍数在 $\mathscr{A}$ 下的像是原像的 $\lambda_{0}$ 倍， 仍旧是 $\xi$ 的一个倍数。 这说明 $\xi$ 的倍数构成一个一维 $\mathscr{A}$-子空间。

显然， $\mathscr{A}$ 的属于特征值 $\lambda_{0}$ 的特征子空间 $V_{\lambda_{0}}$ 也是 $\mathscr{A}$-子空间。
\end{example}

\begin{example}
$\mathscr{A}$-子空间的和与交还是 $\mathscr{A}$-子空间。
\end{example}

\begin{example}
  若$\sA$可逆，$\sA$-子空间也是$\sA^{-1}$-子空间。诚然，令$W$为$\sA$-子空间，
  考虑限制得到的线性变换$\sA|_W\colon W\rightarrow W$. 
  由于$\sA$可逆，这是单射，因而是满射 (推论~\ref{1A0})。
  这样$W=\sA(W)$. 用$\sA^{-1}$两边作用可得$\sA^{-1}(W)=\sA^{-1}\sA(W)=W$.
  因此$W$为$\sA^{-1}$-子空间。
\end{example}
\end{frame}


\begin{frame}{不变子空间与化简线性变换的矩阵之间的关系}
%{线性变换在不变子空间上的限制}
设 $\mathscr{A}$ 是线性空间 $V$ 的线性变换， $W$ 是 $\mathscr{A}$-子空间。 
由于 $W$ 中向量在 $\mathscr{A}$ 下的像仍在 $W$中，
这就使得有可能不必在整个空间 $V$ 中来考虑 $\mathscr{A}$,而只在不变子空间 $W$ 中考虑 $\mathscr{A}$, 
即把 $\mathscr{A}$ 看成是 $W$ 的一个线性变换，称为 \emph{$\mathscr{A}$ 在不变子空间 $W$ 上限制}得到的变换，记作
\[
  \sA|_W\colon W\rightarrow W
\]
（书上用的记号为$\sA|W$）。
%为了区别起见，我们用符号 $\sA|_{W}$ 或 $\sA|_W$ 来表示它; 
在很多情况下，仍然可用 $\mathscr{A}$ 来表示而不致引起混淆。


%必须在概念上弄清楚 $\mathscr{A}$ 和 $\sA|_{W}$ 的异同： $\mathscr{A}$ 是 $V$ 的线性变换， $V$ 中每个向量在 $\mathscr{A}$ 下都有确定的像; $\sA|_{W}$ 是不变子空间 $W$ 上的线性变换，对于 $W$ 中任一向量 $\xi$,有
%\[
%(\sA|_{W}) \xi=\mathscr{A} \xi .
%\]
%但是对于 $V$ 中不属于 $W$ 的向量 $ \eta$ 来说， $(\sA|_{W})  \eta$ 是没有意义的。

\begin{example}
任一线性变换限制在它的核上的变换就是零变换，而限制在特征子空间 $V_{\lambda_{0}}$ 上的变换是数乘变换 $\lambda_{0}$.
\end{example}
\end{frame}


\begin{frame}
  \begin{observation*}
  设 $\mathscr{A}$ 是 $n$ 维线性空间 $V$ 的线性变换， $W$ 是 $V$ 的 $\mathscr{A}$-子空间。 在 $W$ 中取一组基 $\varepsilon_{1}$, $\varepsilon_{2}, \cdots, \varepsilon_{k}$, 并且把它扩充成 $V$ 的一组基
  \[\tag{1}
  \varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{k}, \varepsilon_{k+1}, \cdots, \varepsilon_{n} \text {. }
\]
那么， $\mathscr{A}$ 在这组基下的矩阵就具有形状
\[\tag{2}
  \left[\begin{array}{cccccc}
    a_{11} & \cdots & a_{1 k} & a_{1, k+1} & \cdots & a_{1 n} \\
  \vdots & & \vdots & \vdots & & \vdots \\
a_{k 1} & \cdots & a_{k k} & a_{k, k+1} & \cdots & a_{k n} \\
0 & \cdots & 0 & a_{k+1, k+1} & \cdots & a_{k+1, n} \\
\vdots & & \vdots & \vdots & & \vdots \\
0 & \cdots & 0 & a_{n, k+1} & \cdots & a_{n n}
\end{array}\right]=\begin{pmatrix}
   A_{1} &  A_{3} \\
O &  A_{2}
\end{pmatrix} .
\]
并且左上角的 $k$ 阶矩阵 $ A_{1}$ 就是 $\sA|_{W}$ 在 $W$ 的基 $ \varepsilon_{1},  \varepsilon_{2}, \cdots,  \varepsilon_{k}$ 下的矩阵。

反之， 如果 $\mathscr{A}$ 在基 (1) 下的矩阵是 (2), 那么由 $\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{k}$ 生成的子空间 $W$ 是 $\mathscr{A}$-子空间。

\end{observation*}
\end{frame}

\begin{frame}
  \begin{proof}
    ($\Rightarrow$) 这是因为 $W$ 是 $\mathscr{A}$-子空间，所以像 $\mathscr{A} \varepsilon_{1}, \mathscr{A} \varepsilon_{2}, \cdots, \mathscr{A} \varepsilon_{k}$ 仍在 $W$ 中。 它们可以经 $W$ 的基 $\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{k}$ 线性表出，即
\[
  \begin{gathered}
  \mathscr{A} \varepsilon_{1}=a_{11} \varepsilon_{1}+a_{21} \varepsilon_{2}+\cdots+a_{k 1} \varepsilon_{k}, \\
\mathscr{A} \varepsilon_{2}=a_{12} \varepsilon_{1}+a_{22} \varepsilon_{2}+\cdots+a_{k 2} \varepsilon_{k}, \\
\qquad \vdots \\
\mathscr{A} \varepsilon_{k}=a_{1 k} \varepsilon_{1}+a_{2 k} \varepsilon_{2}+\cdots+a_{k k} \varepsilon_{k} .
\end{gathered}
\]
从而 $\mathscr{A}$ 在基 (1)下的矩阵具有形状 (2), $\sA|_{W}$ 在 $W$ 的基 $\varepsilon_{1}, \varepsilon_{2}, \cdots, \varepsilon_{k}$ 下的矩阵是 $A_{1}$.

($\Leftarrow$) 上述论证可逆过来 (用分块运算再写一遍！)。
\end{proof}

\begin{remark}
  设$W$是$\sA$的不变子空间。用上述观察的记号，我们知$\sA$的特征多项式等于
  \[
    \det (\lambda E-A_1)\det (\lambda E-A_2),
  \]
  其中$\det (\lambda E-A_1)$正是$\sA|_{W}$的特征多项式。由此可知，$\sA|_{W}$的特征多项式整除$\sA$的特征多项式。
\end{remark}
\end{frame}

\begin{frame}
\begin{observation*}
  设 $V$ 分解成若干个 $\mathscr{A}$-子空间的直和，即
  \[
  V=W_{1} \oplus W_{2} \oplus \cdots \oplus W_{s} .
\]
在每一个 $\mathscr{A}$-子空间 $W_{i}$ 中取基
\[\tag{3}
  \symbb{B}_i=( \varepsilon_{i 1},  \varepsilon_{i 2}, \cdots,  \varepsilon_{i n_{i}}), \quad i=1,2, \cdots, s,
\]
并把它们合并起来成为 $V$ 的一组基 $\symbb{B}=(\symbb{B}_1,\cdots,\symbb{B}_s)$. 那么在这组基下， $\mathscr{A}$ 的矩阵具有准对角形状
\[\tag{4}
  \diag(A_1,A_2,\cdots,A_s) = \begin{pmatrix}
     A_{1} & & & \\
  & A_{2} & & \\
& & \ddots & \\
& & &  A_{s}
\end{pmatrix},
\]
其中 $ A_{i}$ ($i=1,2, \cdots, s$) 就是 $\sA|_{W_{i}}$ 在基 (3) 下的矩阵。
反之，如果线性变换 $\mathscr{A}$ 在基 $\symbb{B}$ 下的矩阵是准对角形 (4), 则由 (3) 生成的子空间 $W_{i}=\Span\symbb{B}_i$是 $\mathscr{A}$-子空间。
\end{observation*}
由此可知，矩阵相似于准对角形与空间分解为不变子空间的直和在逻辑上是等价的。%这个观察的证明与之前的观察的证明相仿（可用分块乘法验证）。
正是由于有这种等价性，我们也常将准对角阵$\diag(A_1,A_2,\cdots,A_s)$记作$A_1\oplus A_2\oplus \cdots \oplus A_s$.

\end{frame}

\begin{frame}
  \begin{proof}
    设$V=W_1\oplus \cdots \oplus W_s$, 其中$W_i$为$\sA$-子空间。
    给定$W_i$的基$\symbb{B}_i$, 由于$W_i$为不变子空间，可设$\sA(\symbb{B}_i)=\symbb{B}_i A_i$. 那么
    \[
      \sA(\symbb{B})=\sA(\symbb{B}_1,\cdots,\symbb{B}_s) = (\symbb{B}_1A_1,\cdots,\symbb{B}_sA_s) =  (\symbb{B}_1,\cdots,\symbb{B}_s)\begin{pmatrix}
     A_{1} & & \\
& \ddots & \\
& &  A_{s}
\end{pmatrix}.
    \]
    反过来，设$\sA$在基$\symbb{B}$下的矩阵为准对角阵$A_1\oplus \cdots \oplus A_s$, 
    即
    \[
      \sA(\symbb{B})=\symbb{B} \begin{pmatrix}
        A_1 \\ & \ddots  \\ && A_s
      \end{pmatrix}.
    \]
    令$A_i$的阶为$n_i$. 将$\symbb{B}$分块为$(\symbb{B}_1,\cdots,\symbb{B}_s)$, 其中$\symbb{B}_i$包含$n_i$个向量。
    那么由
    \[
      \sA(\symbb{B}_1,\cdots,\symbb{B}_s) = (\symbb{B}_1,\cdots,\symbb{B}_s) \begin{pmatrix}
     A_{1} & & \\
&  \ddots & \\
& &  A_{s}
\end{pmatrix}=(\symbb{B}_1A_1,\cdots,\symbb{B}_sA_s)
    \]
    可知
    $\sA\symbb{B}_i=\symbb{B}_i A_i$. 
    这样$W_i=\Span \symbb{B}_i$是$\sA$-子空间
    ，$\sA|_{W_i}$在$W_i$的基$\symbb{B}_i$的矩阵为$A_i$, 且$V=W_1\oplus \cdots\oplus W_s$.
  \end{proof}
\end{frame}

\begin{frame}
   \begin{exercise}
   设 \( V \) 为有限维线性空间, \( \sA \) 为 \( V \) 上的线性变换, \( \sA \) 称为完全
可约,若对任意的$\sA$-子空间 \( W \), 存在$\sA$-子空间 \( {W}^{\prime } \) 
使得 \( V = W \oplus  {W}^{\prime } \). 证明 $\sA$ 完全可约当且仅当$\sA$可对角化。%
\footnote{这是视$V$为$F[\sA]$-模，用模的分解来刻画可对角化。}
\end{exercise}

\end{frame}


\begin{frame}{根子空间分解}

下面我们应用哈密顿-凯莱定理将空间按特征值分解成不变子空间的直和。
假设$V$为有限维线性空间， $\sA$为$V$ 上一线性变换。
我们知道，特征子空间线性无关，但它们的(直)和不见得是整个空间，除非$\sA$可以对角化。
如果我们期望空间能按特征值分解为不变子空间的直和，
我们需要引入更多的由特征值决定的向量。为此，我们定义：

\begin{definition}
  设$\lambda_0$为$\sA$的一特征值，$0\neq \xi\in V$. 
  若存在某个正整数$m$使得 $(\sA-\lambda_0\sE)^m\xi=0$, 
  则称$\xi$是属于特征值$\lambda_0$的\emph{广义特征向量}。
  此时，最小的这样的$m$称为该广义特征向量$\xi$ 的\emph{指数} (exponent).
  所有属于特征值$\lambda_0$的广义特征向量添加上零所得集合是$V$的子空间，
  称为属于特征值$\lambda_0$的\emph{广义特征子空间}，
  记作$V^{\lambda_0}$.
  \end{definition}

按照定义，属于特征值$\lambda_0$的特征向量是
  被$\sA-\lambda_0 \sE$作用变成零向量的那些(非零)向量，
  因此特征向量都是广义特征向量；
  特征子空间$V_{\lambda_0}=\ker(\sA-\lambda_0 \sE)$ 包含在广义特征子空间$V^{\lambda_0}$中。
\end{frame}


\begin{frame}


  更一般地，我们有$V^{\lambda_0}$的子空间的升链
  \[
      \ker(\sA-\lambda_0 \sE) \subset \ker(\sA-\lambda_0 \sE)^2 \subset \ker(\sA-\lambda_0 \sE)^3\subset \cdots , 
    \]
    且按定义有
    \[
        \bigcup_{i=1}^\infty  \ker(\sA-\lambda_0 \sE)^i = V^{\lambda_0}.
\]
  由于$V^{\lambda_0}$作为$V$的子空间是有限维的，这样的升链最终会稳定 (看维数)，
  即，存在正整数$m$使得
  \[
    \ker(\sA-\lambda_0 \sE)^m=\ker(\sA-\lambda_0 \sE)^{m+1}=\cdots
  \]
  这些实际上都等于$V^{\lambda_0}$,
  因为 $\ker(\sA-\lambda_0 \sE)^i$ ($i=1,2,\cdots$) 的并是 $V^{\lambda_i}$. 
  于是，对所有充分大的正整数$m$, 
  \[
    V^{\lambda_0}= \ker(\sA-\lambda_0 \sE)^m.
  \]
  我们也将这样想广义特征子空间，并给出这样的$m$的值。

  ~

  由例~\ref{116}~知广义特征子空间是$\sA$-子空间。
  我们来证明可以把空间分解为广义特征子空间的直和，
  在 $\sA$的特征多项式能分解为一次因子的乘积 (例如在复数域上)的条件下
  (一般地特征多项式不见得能分解为一次多项式的乘积，但仍有所谓的准素分解，见附录~\ref{011})。
      首先我们把特征子空间线性无关这个结论推广到广义特征子空间，
      证明方法和之前是类似的 (上课时我们不讲这个证明，
      而是只讲后面的根子空间分解中的证明，那个证明会与整个证明更统一且更简洁)。
\end{frame}


\begin{frame}

      \begin{proposition}
        属于不同的特征值的广义特征子空间线性无关。
        实际上，若$\lambda_1, \cdots,\lambda_s$为$\sA$的互异的特征值，
        $m_1,\cdots,m_s$为正整数，则
        $V_1,\cdots,V_s$线性无关，其中$V_i=\ker(\sA-\lambda_i \sE)^{m_i}$.
        \label{15C}
      \end{proposition}

       \begin{proof*}
        对广义特征子空间的个数作数学归纳法。 单个子空间总线性无关。 
现在设属于 $k$ 个不同特征值的广义特征子空间线性无关，我们证明属于 $k+1$ 个不同特征值 
$\lambda_{1}, \lambda_{2}, \cdots, \lambda_{k+1}$ 的广义特征子空间
$V_1,\cdots,V_{k+1}$ 也线性无关。
假设有关系式
\[\tag{5}
  0 = \xi_{1}+ \xi_{2}+\cdots+ \xi_{k}+\xi_{k+1}\quad (\xi_i\in V_i)
\]
成立。 等式两端用 $(\sA-\lambda_{k+1}\sE)^{m_{k+1}}$作用 得
\[\tag{6}
  0 = (\sA-\lambda_{k+1}\sE)^{m_{k+1}} \xi_{1}+ (\sA-\lambda_{k+1}\sE)^{m_{k+1}} \xi_{2}+\cdots+(\sA-\lambda_{k+1}\sE)^{m_{k+1}} \xi_{k}.
\]
由于$V_i=\ker(\sA-\lambda_{i}\sE)^{m_{i}}$为$(\sA-\lambda_{k+1}\sE)^{m_{k+1}}$-子空间 
(见例~\ref{116})，
每个$(\sA-\lambda_{k+1}\sE)^{m_{k+1}} \xi_i \in V_i$ ($1\leqslant i\leqslant k$),
根据归纳假设， 
\[
  (\sA-\lambda_{k+1}\sE)^{m_{k+1}}\xi_i=0\quad  (i=1,2, \cdots, k).
\]
而 $(\sA-\lambda_{k+1}\sE)^{m_{k+1}}$在 $\ker(\sA-\lambda_{i}\sE)^{m_{i}}$上的限制是可逆的 
(引理~\ref{004})，
因此 $\xi_i=0$ ($i=1,2, \cdots, k$). 
这时 (5) 式变成 $0=\xi_{k+1}$. 这就证明了 $V_1,\cdots,V_{k+1}$ 无关。
      \end{proof*}
\end{frame}


\begin{frame}


  上面的证明需要这个引理。
  %；证明不同的特征子空间线性无关时这点被平凡地用到了 
  %(当时我们只是用到了$\lambda_i\neq \lambda_j$)：
%$\sA$在特征子空间$V_{\lambda_i}$上的限制是数乘变换$\lambda_i\sE$, 
%$\sA-\lambda_j\sE$ ($j\neq i$) 限制在 $V_{\lambda_i}$上等于$(\lambda_i-\lambda_j)\sE$, 
%其可逆性由$\lambda_i\neq \lambda_j$立得。
     \begin{lemma}
      若$\lambda_0,\lambda_1$为$\sA$的两个不同的特征值，$m_0, m_1$是正整数，则
      $(\sA-\lambda_0\sE)^{m_0}$在$\ker (\sA-\lambda_1\sE)^{m_1}$上的限制是可逆的线性变换。
        \label{004}
      \end{lemma}
      \begin{proof}
        证明与例~\ref{0FC}~类似。
        由于$(\lambda-\lambda_0)^{m_0}, (\lambda-\lambda_1)^{m_1}$互素，
        存在$u(\lambda), v(\lambda)\in P[\lambda]$使得
        \[
          u(\lambda) (\lambda-\lambda_0)^{m_0}+ v(\lambda) (\lambda-\lambda_1)^{m_1}=1.
        \]
        令$\lambda=\sA$得
        \[
          u(\sA) (\sA-\lambda_0\sE)^{m_0}+ v(\sE) (\sA-\lambda_1\sE)^{m_1}=\sE.
        \]
        限制到 $W=\ker (\sA-\lambda_1\sE)^{m_1}$ 上时有
        \[
u(\sE)|_W (\sA-\lambda_0\sE)^{m_1}|_W=\sE.
        \]
        因此 $(\sA-\lambda_0\sE)^{m_1}|_W$可逆。
      \end{proof}

\end{frame}


\begin{frame}
\begin{theorem}
  \label{15F}
设线性变换 $\mathscr{A}$ 的特征多项式为 $f(\lambda)$, 它可分解成一次因式的乘积
\[
f(\lambda)=\left(\lambda-\lambda_{1}\right)^{r_{1}}\left(\lambda-\lambda_{2}\right)^{r_{2}} \cdots\left(\lambda-\lambda_{s}\right)^{r_{s}},
\]
则 $V$ 可分解成不变子空间的直和
\[
V=V_{1} \oplus V_{2} \oplus \cdots \oplus V_{s},
\]
其中 $V_{i}=\ker\left(\mathscr{A}-\lambda_{i} \mathscr{E}\right)^{r_{i}}=\left\{ \xi \in V \mid \left(\mathscr{A}-\lambda_{i} \mathscr{E}\right)^{r_{i}}  \xi=\symbf{0}\right\}$.
\end{theorem}

这些$V_i$称为\emph{根子空间}，上述定理把空间分解为了根子空间的直和。
由下面的推论知，$V_i$就是广义特征子空间$V^{\lambda_i}$,
所以上面的直和分解也是把$V$表成了广义特征子空间的直和。

\begin{corollary}
  如上述定理假设和记号，那么属于特征值$\lambda_i$的广义特征子空间
  $V^{\lambda_i}= \ker\left(\mathscr{A}-\lambda_{i} \mathscr{E}\right)^{r_{i}}$.
  特别地，属于特征值$\lambda_i$的广义特征向量的指数不超过$\lambda_i$的重数。
\end{corollary}


\begin{proof}
  令$\dim V=n$, $\dim V_i=n_i$, $\dim V^{\lambda_i}=n_i'$. 
  由 $V_i \subset V^{\lambda_i}$知 $n_i\leqslant n_i'$;
由$V=V_1\oplus \cdots\oplus V_s$知 $\sum_{i=1}^s n_i=n$;
又由$\sum_{i=1}^s V^{\lambda_i}$为直和 (因为这些子空间线性无关) 
且这给出$V$的子空间知 $\sum_{i=1}^s n_i'\leqslant n$. 
  三个公式结合在一起表明 $n_i=n_i'$ ($i=1,\cdots,s$). 因此
  $V_i= V^{\lambda_i}$.
\end{proof}
\end{frame}


\begin{frame}

  另外，注记~\ref{16E}~中类似的空间分解表明
  指数总不超过$\lambda_0$作为最小多项式的根的重数。

\begin{proof*}[定理~\ref{15F}~的证明]
  
  先证明$V=V_1+\cdots+V_s$. 为此，  令
  \begin{align*}
    f_{i}(\lambda)= \frac{f(\lambda)}{\left(\lambda-\lambda_{i}\right)^{r_{i}}}=\prod_{j\neq i}(\lambda-\lambda_j)^{r_j},
\end{align*}
注意到$(f_1, \cdots, f_s)=1$, 从而
存在$u_i(\lambda)\in P[\lambda]$使得$\sum_{i=1}^s u_i(\lambda) f_i(\lambda)=1$. 
令$\lambda=\sA$得
\[
  \sum_{i=1}^s u_i(\sA) f_i(\sA) =\sE.
\]
这样，对任意的$\alpha\in V$有
\[
  \alpha= \sum_{i=1}^s u_i(\sA) f_i(\sA) \alpha.
\]
注意到
\[
  (\sA-\lambda_i\sE)^{r_i} u_i(\sA) f_i(\sA) =f(\sA) u_i(\sA)=0,
\]
因此，
\[
  u_i(\sA) f_i(\sA) \alpha \in V_i.
\]
这就证明了$V=V_1+\cdots+V_s$. 证毕。
\end{proof*}
\end{frame}


\begin{frame}
  \begin{proof*}[定理~\ref{15F}~的证明 (续)]
    再证明 $V_1,\cdots,V_s$线性无关。
当然，这可由命题~\ref{15C}~得到。
不过，下面我们给出另一种证明方法，跟课本上的方法一致；
这个方法也适用于证明命题~\ref{15C}，
且比之前的证明要简洁。令
\[\tag{$*$}
  0=\alpha_1+\cdots+\alpha_s, \quad \text{其中~} \alpha_i\in V_i.
\]
由于$(\lambda-\lambda_j)^{r_j}\mid f_i$, $f_i(\sA) \alpha_j =0$ ($j\neq i$). 
用$f_i(\sA)$作用于($*$)两端可得$f_i(\sA) \alpha_i=0$. 
由于 $(\lambda-\lambda_i)^{r_i}, f_i$互素，存在$u, v\in P[\lambda]$使得
\[
  u(\lambda)(\lambda-\lambda_i)^{r_i}+v(\lambda) f_i(\lambda) = 1.
\]
令$\lambda=\sA$得
\[
  u(\sA)(\sA-\lambda_i\sE)^{r_i} + v(\sA) f_i(\sA)=\sE.
\]
两边作用于$\alpha_i$得$0=\alpha_i$. 因此 $V_1,\cdots,V_s$线性无关。
  \end{proof*}
\end{frame}

\iffalse 
\begin{frame}
\begin{definition}
令$V, \mathscr{A}, f(\lambda)m, \lambda_i$ 如上述定理， 称 
\[
  \ker\left(\mathscr{A}-\lambda_{i} \mathscr{E}\right)^{r_{i}}=\left\{\xi \in V \mid\left(\mathscr{A}-\lambda_{i} \mathscr{E}\right)^{r_{i}} \xi=0\right\}
\]
为 $\mathscr{A}$ 的属于特征值 $\lambda_{i}$ 的\emph{根子空间} (root subspace)， 记作 $V^{\lambda_{i}}$. 根子空间中的非零向量也称为\emph{广义特征向量}。
\end{definition}
这样上述定理相当于说整个空间$V$可以分解为$\sA$的所有根子空间的直和。

\end{frame}


\begin{frame}{直和分解的映射刻画}
  下面的引理可以帮助我们理解后面的证明。

  \begin{lemma}\label{195}
      给定数域$P$上的线性空间$V$及其子空间$V_1, \cdots, V_s$, 我们有$V=V_1\oplus V_2 \oplus \cdots \oplus V_s$
      当且仅当存在线性变换$\pi_i\colon V\rightarrow V$ ($i=1,\cdots, s$) 
  使得
  \[
    \pi_i(V)=V_i,\quad \sum_{i=1}^s\pi_i = 1, \quad \pi_i\pi_j=0 (\text{若~}i\neq j).
\]
  \end{lemma}
  \begin{proof}
      ($\Rightarrow$) 若$V=V_1\oplus V_2 \oplus \cdots \oplus V_s$, 
  那么对任意$\alpha\in V$, $\alpha$唯一地写为和
  $
    \alpha=\alpha_1+\cdots+\alpha_s,
  $
  其中$\alpha_i\in V_i$. 
  这允许我们定义映射
  \[
    \pi_i\colon V\rightarrow V_i\subset V, \quad \alpha\mapsto \alpha_i.
  \]
  显然
  $\sum_{i=1}^s \pi_i=1,$ $\pi_i\pi_j=0$ (若$i\neq j$).
  我们来证明$\pi_i$是线性的。若$a,a'\in P, \alpha,\alpha'\in V$, 设
  $
  \alpha=\sum_{i=1}^s \alpha_i, 
  \alpha'=\sum_{i=1}^s \alpha_i', 
  $
  其中$\alpha_i, \alpha_i'\in V_i$.
  那么
  $
  a\alpha+a'\alpha'=\sum_{i=1}^s (a\alpha_i+a'\alpha_i').
  $
  由于$V_i$对线性组合封闭，$a\alpha_i+a'\alpha_i'\in V_i$.
  进而由$\pi_i$的定义可如期望的得到$\pi_i$的线性性：
  \[
    \pi_i(a\alpha+a'\alpha')=a\alpha_i+a'\alpha_i'.
\]
\end{proof}

\end{frame}

\begin{frame}
  \begin{proof}[续]
  ($\Leftarrow$) 
首先注意到$\pi_i$线性，$\sum_{i=1}^s\pi_i=1$, $\pi_i\pi_j=0$ ($i\neq j$) 这些条件蕴含了 $\pi_i^2=\pi_i$ ($i=1,\cdots,s$): 
\[
  \pi_i=\pi_i\left( \sum_{j=1}^r \pi_j \right) = \pi_i^2.
\]
$\sum_{i=1}^s \pi_i=1$表明
\[
  V=\sum_{i=1}^s\pi_i(V)=\sum_{i=1}^s V_i.
\]
由于$V_i=\pi_i(V)$, $V_i$中元素总可写为形如$\pi_i(\alpha_i)$, 对某个$\alpha_i\in V$.
  为了证明$V_1, \cdots, V_s$是线性无关的，我们设
  \[
    0=\pi_1(\alpha_1)+\cdots+\pi_s(\alpha_s), 
  \]
  其中$\alpha_i\in V$.
  用$\pi_i$作用在该等式两边得$0=\pi_i^2(\alpha_i)=\pi_i(\alpha_i)$, 如我们期望的。 这就证明了$V_1, \cdots, V_s$无关。
  因此$V=V_1\oplus V_2 \oplus \cdots \oplus V_s$. 
  \end{proof}

\begin{exercise}
  令$V$是$n$维向量空间，$\sA\in \End(V)$幂等指$\sA^2=\sA$.
  设$\sA_1, \cdots, \sA_s$为$V$上的线性变换，
  令$\sA=\sA_1+\cdots+\sA_s$.
  证明$\sA$幂等且满足$\rank \sA =\rank \sA_1+\cdots+\rank  \sA_s$当且仅当所有的$\sA_i$幂等且满足$\sA_i\sA_j=0$, 对$i\neq j$.
\end{exercise}


\end{frame}

\begin{frame}{根子空间分解存在性的证明}

  \begin{proof}
  令
  \begin{align*}
    f_{i}(\lambda)= \frac{f(\lambda)}{\left(\lambda-\lambda_{i}\right)^{r_{i}}}=\prod_{j\neq i}(\lambda-\lambda_j)^{r_j},
\end{align*}
注意到$(f_1, \cdots, f_s)=1$, 
存在$u_i\in P[\lambda]$使得$\sum_{i=1}^s u_i f_i=1$.
令
\[
  e_i=u_if_i,\quad \pi_i= e_i(\sA)=u_i(\sA)f_i(\sA).
\]
由$\sum_{i=1}^s e_i=1$立得$\sum_{i=1}^s \pi_i=\sE$. 
$i\neq j$时
\begin{align*}
  e_ie_j&= u_if_i u_j f_j = u_iu_j\frac{f^2}{(\lambda-\lambda_i)^{r_i} (\lambda-\lambda_j)^{r_j}}\\
  &= f\cdot u_iu_j\frac{f}{(\lambda-\lambda_i)^{r_i} (\lambda-\lambda_j)^{r_j}}.
\end{align*}
$(\lambda-\lambda_i)^{r_i} (\lambda-\lambda_j)^{r_j}\mid f$表明$f\mid e_ie_j$, 故可设$e_ie_j=fg_{ij}$.
由Hamilton-Cayley定理知$f(\sA)=0$. 
这样代入$\lambda=\sA$到$e_ie_j(\lambda)$得
\end{proof}

\end{frame}

\begin{frame}
  \begin{proof}[续]
\[
  \pi_i\pi_j=e_i(\sA)e_j(\sA)=(e_ie_j)(\sA)=(fg_{ij})(\sA)=f(\sA)g_{ij}(\sA)=0.
\]
这样由上述引理可知$V=\oplus_{i=1}^s \pi_i(V)$. 
要证明$V=\oplus_{i=1}^s V_i$, 其中$V_i = \ker (\sA-\lambda_i \sE)^{r_i}$为$\sA$的属于$\lambda_i$的根子空间，
只用再证明对每个$i$有$\pi_i(V)= V_i$. 
我们有
\[
  (\lambda-\lambda_i)^{r_i}e_i=(\lambda-\lambda_i)^{r_i} f_i u_i = fu_i,
\]
代入$\lambda=\sA$得
\[
  (\sA-\lambda_i \sE)^{r_i} \pi_i=0.
\]
因此$\pi_i(V)\subset V_i$. 
反过来，令$\alpha\in V_i$, 则$(\sA-\lambda_i\sE)^{r_i} \alpha=0$.
对$j\neq i$, $(\lambda-\lambda_i)^{r_i}\mid e_j$, 故$\pi_j(\alpha)=0$.
这样
\[
  \alpha=\sum_{j=1}^s \pi_j(\alpha) = \pi_i(\alpha) \in \pi_i(V).
\]
如此，我们证明了$\pi_i(V)=V_i$. 证毕。
\end{proof}

\end{frame}
\fi


\begin{frame}{小结}
  \begin{enumerate}
    \item 何谓不变子空间？你知道哪些例子？
    \item 不变子空间与线性变换的矩阵化为形如$\begin{pmatrix}
        A_1 & A_2 \\ & A_3
      \end{pmatrix}$如何关联？
    \item 解释方阵相似到准对角阵（或线性变换在某组基的矩阵为准对角阵）如何与空间分解为不变子空间的直和在逻辑上等价。
    \item 何谓根子空间？何谓根子空间分解？
  \end{enumerate}
\end{frame}

\iffalse

那么 $V_{i}$ 是 $f_{i}(\mathscr{A})$ 的值域，从而 $V_{i}$ 是 $\mathscr{A}$-子空间。 
显然 $V_{i}$ 满足
\[
\left(\mathscr{A}-\lambda_{i} \mathscr{E}\right)^{r_{\mathrm{i}}} V_{i}=f(\mathscr{A}) V=\{0\} .
\]
下面来证明 $V=V_{1} \oplus V_{2} \oplus \cdots \oplus V_{s}$.


为此要证明两点，第一，要证 $V$ 中每个向量 $ \alpha$ 都可表成
\[
 \alpha= \alpha_{1}+ \alpha_{2}+\cdots+ \alpha_{s}, \quad  \alpha_{i} \in V_{i}, \quad i=1,2, \cdots, s .
\]
其次，向量的这种表示法是唯一的。

显然 $\left(f_{1}(\lambda), f_{2}(\lambda), \cdots, f_{s}(\lambda)\right)=1$, 因此有多项式 $u_{1}(\lambda), u_{2}(\lambda), \cdots, u_{s}(\lambda)$ 使
\[
u_{1}(\lambda) f_{1}(\lambda)+u_{2}(\lambda) f_{2}(\lambda)+\cdots+u_{s}(\lambda) f_{s}(\lambda)=1 .
\]
于是
\[
u_{1}(\mathscr{A}) f_{1}(\mathscr{A})+u_{2}(\mathscr{A}) f_{2}(\mathscr{A})+\cdots+u_{s}(\mathscr{A}) f_{s}(\mathscr{A})=\mathscr{E} .
\]
这样对 $V$ 中每个向量 $\alpha$ 都有
\[
 \alpha=u_{1}(\mathscr{A}) f_{1}(\mathscr{A})  \alpha+u_{2}(\mathscr{A}) f_{2}(\mathscr{A})  \alpha+\cdots+u_{s}(\mathscr{A}) f_{s}(\mathscr{A})  \alpha,
\]
其中
\[
u_{i}(\mathscr{A}) f_{i}(\mathscr{A})  \alpha \in f_{i}(\mathscr{A}) V=V_{i} \quad i=1,2, \cdots, s .
\]
这就证明了第一点。

为证明第二点，设有
\[
 \beta_{1}+ \beta_{2}+\cdots+ \beta_{3}=\symbf{0},
\]
其中 $ \beta_{i}$ 满足
\[
\left(\mathscr{A}-\lambda_{i} \mathscr{E}\right)^{r_{i}}  \beta_{i}=\symbf{0} \quad i=1,2, \cdots, s .
\]
现在证明任一个 $ \beta_{i}=\symbf{0}$.

因 $\left(\lambda-\lambda_{j}\right)^{r_{j}} \mid f_{i}(\lambda)(j \neq i)$, 所以 $f_{i}(\mathscr{A})  \beta_{j}=\symbf{0}(j \neq i)$. 用 $f_{i}(\mathscr{A})$ 作用于 $(5)$ 的两边， 即得

\[
f_{i}(\mathscr{A})  \beta_{i}=\symbf{0} .
\]

又

\[
\left(f_{i}(\lambda),\left(\lambda-\lambda_{i}\right)^{r_{i}}\right)=1 .
\]

所以有多项式 $u(\lambda), v(\lambda)$ 使

\[
u(\lambda) f_{i}(\lambda)+v(\lambda)\left(\lambda-\lambda_{i}\right)^{r_{i}}=1 .
\]

于是

\[
 \beta_{i}=u(\mathscr{A}) f_{i}(\mathscr{A})  \beta_{i}+v(\mathscr{A})\left(\mathscr{A}-\lambda_{i} \mathscr{E}\right)  \beta_{i}=\symbf{0} .
\]

现在设

\[
 \alpha_{1}+ \alpha_{2}+\cdots+ \alpha_{s}=\symbf{0},
\]

其中 $ \alpha_{i} \in V_{i}$. 当然 $ \alpha_{i}$ 满足

\[
\left(\mathscr{A}-\lambda_{i} \mathscr{E}\right)^{r_{i}}  \alpha_{i}=\symbf{0} \quad i=1,2, \cdots, s .
\]

所以 $ \alpha_{i}= 0(i=1,2, \cdots, s)$. 由此可得到第一点中的表示法是唯一的。

再设有一向量 $ \alpha \in\left(\mathscr{A}-\lambda_{i} \mathscr{E}^{r_{i}}\right.$ 的核。把 $ \alpha$ 表示成

\[
\alpha=\alpha_{1}+\alpha_{2}+\cdots+\alpha_{s}, \alpha_{i} \in V_{i}, \quad i=1,2, \cdots, s,
\]

即

\[
 \alpha_{1}+ \alpha_{2}+\cdots+\left( \alpha_{i}- \alpha\right)+\cdots+ \alpha_{s}=\symbf{0} .
\]

令 $ \beta_{j}= \alpha_{j}, j \neq i,  \beta_{i}= \alpha_{i}- \alpha$, 则 $ \beta_{1},  \beta_{2}, \cdots,  \beta_{s}$ 是满足 (5) 和 (6) 的向量。 所以 $ \beta_{1}= \beta_{2}=\cdots=$ $ \beta_{i}=\cdots= \beta_{s}=\symbf{0}$, 于是 $ \alpha= \alpha_{i} \in V_{i}$, 这就证明了 $V_{i}$ 是 $\left(\mathscr{A}-\lambda_{i} \mathscr{E}^{\circ}\right)^{r_{i}}$ 的核， 即 $V_{i}=\left\{\xi \in V \mid\left(\mathscr{A}-\lambda_{i} \mathscr{E}^{\mathscr{E}^{r}} \xi\right.\right.$ $=0\}$. I

\fi
